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sisting of a series of frames. Each of said frames comprises a digital block containing a certain number of coefficients corresponding 
to simple audio elements which are digitally encoded according to a mode identified in the relevant stream and used by all of the 
audio decoders capable of doing so, such that the stream can be decoded correctly. The invention is characterised in that it com- 
prises: a preparatory step consisting in modifying at least one of the aforementioned coefficients; and a transmission step involving 
the transmission of (i) a main stream with the nominal format, which is made up of the blocks modified during the preparatory step, 
and (ii), using a channel separate from said main stream, complementary digital information which enables the original stream to be 
00 reconstructed from the calculation on the recipient device according to the main stream and the complementary information. The 
invention also relates to a system and a piece of equipment which are used to implement the inventive method. 

f^i (57) Abrege : La presente invention se rapporte a un procede pour la distribution de sequences audio numeriques selon un format de 
flux nominal constitue par une succession de trames comprenant chacune au moins un bloc numerique regroupant un certain nombre 
de coefficients correspondant a des elements audio simples codes numeriquement selon un mode precise a rinterieur du flux concerne 
et utilise par tous les decodeurs audio capables de le jouer afin de pouvoir la decoder correctement, caracterise en ce qu'il comporte 
une etape preparatoire consistant a modifier au moins un desdits coefficients, une etape de transmission d'un flux principal conforme 
au format nominal, constitue par les blocs modifies au cours de 1' etape preparatoire et par une voie separee dudit flux principal d'une 
information numerique complementaire permettant de reconstituer le flux original a partir du calcul, sur l'equipement destinataire, 
en fonction dudit flux principal et de ladite information complementaire. La presente invention se rapporte egalement a un systeme 
et un equipement pour la mise en oeuvre du procede. 
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SYSTEME D ' EMBROUILLAGE SECURISE DE FLUX AUDIO 

La presente invention se rapporte au domaine du 
traitement des flux audio numeriques . 
5 On se propose dans la presente invention de fournir 

un systeme permettant d ' embrouiller auditivement et de 
recomposer un contenu audio numerique. 

La presente invention se rapporte plus 
particulierement a un dispositif capable de transmettre de 

io fagon securisee un ensemble de flux audio de haute qualite 
auditive vers un lecteur ( " player ") musical ou de parole 
pour etre enregistre dans la me moire ou sur le disque dur 
d'un boitier reliant le reseau de teletransmission au 
player audio ou television , tout en preservant la qualite 

15 auditive mais en evitant toute utilisation frauduleuse 
comme la possibility de faire des copies pirates de 
programmes audio enregistres dans la memo ire ou sur le 
disque dur du boitier decodeur. 

L' invention concerne un procede pour la distribution 

20 de sequences audio numeriques selon un format de flux 
nominal constitue par une succession de trames comprenant 
chacune au moins un bloc numerique regroupant un certain 
nombre de coefficients correspondant a des elements audio 
simples codes numeriquement selon un mode precise a 

25 l'interieur du flux concerne et utilise par tous les 
decodeurs audio capables de le restituer ou de le jouer 
afin de pouvoir le decoder correctement . Ce procede 
comporte : 

• une etape preparatoire consistant a modifier au 
30 moins un desdits coef f icients , 

• une etape de transmission 

- d'un flux principal conforme au format nominal,, 
constitue par les blocs modifies au cours de 1' etape 
preparatoire et 
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- par une voie separee dudit flux principal d'une 
information numerique complementaire permettant de 
reconstituer le flux originel a partir du calcul, sur 
1 ' equipement destinataire, en fonction dudit flux principal 
5 et de ladite information complementaire. On definit ladite 
information complementaire en tant qu'un ensemble constitue 
de donnees (par exemples des coefficients decrivant le flux 
numerique originel ou extraits du flux originel) et de 
fonctions (par exemple, la fonction substitution ou 
10 permutation) . Une fonction est def inie comme contenant au 
moins une instruction mettant en rapport des donnees et des 
operateurs . Ladite information complementaire decrit les 
operations a effectuer pour recuperer le flux original a 
partir du flux modifie. 

15 

Dans la presente invention , on entend sous le terme 
" embrouillage " la modification d'un flux audio numerique 
par des methodes appropriees de maniere a ce que ce flux 
reste conforme a la norme avec laquelle il a ete encode 

20 numeriquement, tout en le rendant jouable par un lecteur 
audio , mais altere du point de vue de la perception 
auditive humaine. 

Dans la presente invention, on entend sous le terme 
" desembrouillage " le processus de restitution par des 

25 methodes appropriees du flux initial, le flux audio 
restitue apres le desembrouillage etant identique au flux 
audio initial. 



30 Le signal audio peut posseder une ou plusieurs 

composantes : parole, musique, bruits, sons naturels, sons 
synthetiques et/ou tout signal audio de memes 
car acter is tiques , composantes qui sont traitees 
numeriquement en vue d' applications multimedia numeriques 

35 diverses, comme par exemple la television numerique, les 
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DVD, les disques, les CD musicaux, les services Internet, 
les services multimedias interactifs. 

Les methodes mathematiques pour traiter le signal 
audio sont tres nombreuses. On utilise habituellement des 
5 transformations f requentielles et temporelles, des 
algorithmes de prediction ou statistiques , des mecanismes 
de production des sons et de la parole, des analyses 
acoustiques et des mecanismes utilisant les proprietes de 
perception de l'oreille. 
10 Par exemple, les codeurs de la parole sont bases sur 

ses caracteristiques statistiques, telles que variance et 
auto correlation, donnant naissance a des algorithmes 
predictifs, adaptatifs, egalement sur ses proprietes 
spectrales (pitch (relatif au f ondamental ) , formants 
15 (relatifs a l'enveloppe spectrale), voisement, non 
voisement). De nombreux algorithmes existent egalement dans 
le domaine frequentiel, temporel, parametrique, de codage 
par analyse et synthese. 

Pour les diverses applications numeriques, de plus en 
20 plus de methodes fiables de modelisation, quantification, 
compression et transmission sont mises au point et ont 
donne lieu a de multiples codeurs audio de plus en plus 
per formants en termes de qualite, compression, cout et 
fiabilite. Par exemple, le MPEG-AAC (Motion Picture Expert 
25 Group - Advanced Audio Coding) est actuellement consid^re 
comme la norme de compression des signaux audio en bande 
Hi-Fi la plus efficace et la plus universelle. 

Cependant, si de plus en plus d ' applications 
multimedias sont presentes sur le marche, elles sont 
30 egalement tres souvent piratees. 

Pour assurer la protection audio d'un systeme 
quelconque de diffusion (audio ou audiovisuel ) , il est 
indispensable de trouver une methode qui rend impossible la 
reconstitution d'un flux audio modifie. 

35 
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L'art anterieur connait deja par la demande de brevet 
Internationale WO 0058963 (Liquid Audio) un systeme de 
securite pour les lecteurs de musigue portables. Des 
donnees comme un morceau musical sont sauvegardees en tant 
5 que morceau portable securise ( SPT : secure portable 
track), qui peut etre lie a un ou plusieurs lecteurs 
(" players " ) et peut etre lie a un moyen de sauvegarde 
particulier, restreignant ainsi la lecture du SPT a des 
players specifiques et assurant que la lecture est 
10 seulement effectuee a partir du moyen de sauvegarde 
original. Le SPT est lie a un player par encryptage de 
donnees du SPT en utilisant une cle de sauvegarde qui est 
unique au player , difficile a changer et est gardee par le 
lecteur dans des conditions de securite strictes. Le SPT 
15 est lie a un moyen particulier de sauvegarde en incluant 
des donnees identifiant uniquement le moyen de sauvegarde 
dans une forme resistante a la falsification , c'est-a-dire 
signee de fagon cryptee. 

On connait egalement, par le brevet americain US 
20 4600941 (Sony) f un systeme d'embrouillage pour les signaux 
audio dans lequel un signal audio est divise en blocs, 
chaque bloc etant forme d'une pluralite de trames, la 
pluralite de trames etant rearrangees sur une base de temps 
dans un ordre predetermine a chaque bloc de fagon a etre 
25 encodees et le signal encode est re-arrange sur une base de 
temps dans un ordre original de fagon a etre decode, dans 
lequel sont fournis un premier circuit de traitement du 
signal pour inserer une portion redondante dans une portion 
entre des trames contigues et comprimer en temps de base 
30 les trames en reponse aux portions redondantes lors de 
l'encodage, un circuit generant un signal pour inserer un 
signal de controle autre qu'une information audio dans les 
portions redondantes, un circuit de detection de signal de 
controle pour detecter le signal de controle lors du 
35 decodage et un deuxieme circuit de traitement du signal 
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pour enlever les portions reciondantes en synchronisme avec 
le signal de controle detecte et decompressant en temps de 
base les trames en reponse aux portions redondantes. 

On connait egalement, par le brevet americain US 
5 5058159 (Macrovision Corporation) , une methode et un 
systeme pour embrouiller et desembrouiller des signaux 
d ' information audio. Les signaux audio sont embrouilles en 
inversant le spectre de frequence original de telle sorte 
que les portions de frequence qui sont a l'origine en bas 

10 dans la bande de frequence audio sont deplacees en haut 
tandis que les portions a l'origine en haut de la bande 
sont deplacees en bas. Un son pilote d'une frequence connue 
est enregistre avec les signaux audio aux frequences 
deplacees. Lors de la reproduction , chaque variation en 

15 phase et en frequence sont recherchees par le son pilote , 
qui est utilise pour generer le signal de demodulation pour 
reconstituer le contenu original en frequences des signaux 
audio . 

20 L'art anterieur connait egalement document WO 0 0 

55089 A qui presente une methode et un systeme pour 
1 'embrouillage d' echantillons numeriques compresses ou non- 
compresses representant des donnees audio et videos , de 
maniere a ce que le contenu de ces echantillons soit 

25 degrade, mais reconnaissable, ou sinon fourni avec une 
qualite requise donnee . Un nombre donne de LSBs ( « Least 
Significant Bits », bits de poids le plus faible) des 
donnees sont embrouillees pour chaque echantillon trame par 
trame, de maniere adaptative en fonction de la dynamique 

30 des valeurs possibles , les bits de poids le plus fort etant 
inchanges. Cette solution represente une solution de 
cryptage bien connue par l'homme de l'art, a 1 ' aide de 
cle(s) de cryptage. Les cles de cryptage sont transmises en 
une fois ou entierement dans le flux avec les donnees 

35 cryptees, ce qui rend le flux vulnerable aux tentatives de 
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piratage, etant donne que tous les elements composant le 
flux audiovisuel restent a l'interieur dudit flux. Cet art 
anterieur ne repond pas aux objectifs de forte securisation 
de la presente invention. 

5 

L 1 invention DE 199 07 964 C referencee egalement par 
l'art anterieur concerne un dispositif utilise pour generer 
un flux de donnees crypte qui represente un signal audio 
et/ou video. Cet art anterieur developpe des moyens et des 

10 techniques pour proteger le flux audio (et/ou video) en 
modifiant a 1 ' aide d'une ou de plusieurs cles, certaines 
informations du flux d'origine, par exemple le cryptage est 
effectue en modifiant les LSBs (« Least Significant Bits », 
bits de poids le plus faible) des coefficients spectraux. 

15 Etant donne que la protection est effectuee a 1 ' aide 

de cles de cryptage, toute 1 ' information initiale reste 
presente a 1 ' interieur du flux protege. Cet art anterieur 
ne repond pas aux criteres de haute securite, objet de la 
presente invention. 

20 L'etat de 1 ' art fait preuve de beaucoup de systemes 

de protection de flux audio, essentiellement bases sur le 
cryptage des donnees, en rajoutant des clefs de cryptage 
independantes du contenu du flux audio, et qui done 
modifient le format du flux structure. Une realisation 

25 particuliere et differente est celle de la societe Coding 
Technologies, qui consiste a proteger par embrouillage une 
partie selectionnee du bitstream (on appelle " bitstream " 
le flux binaire a la sortie de l'encodeur audio) et non pas 
le bitstream entier. Les parties protegees representent les 

30 valeurs spectrales du signal audio, menant a ce que lors du 
decodage sans decrypter, le flux audio est distordu et 
desagreable a l'ecoute. 

La presente invention entend remedier aux 
inconvenients de 1 ' art anterieur en proposant une methode 
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de protection basee sur le principe de la suppression et le 
remplacement d' informations decrivant le signal audio. 

La presente invention propose la protection du flux 
5 audio basee integralement sur la structure du bitstream du 
flux audio, protection qui consiste a modifier des parties 
ciblees du bitstream relatives a la modelisation et 
caracteristiques du flux audio. Les vraies valeurs sont 
extraites du bitstream et stockees en tant qu ' information 

10 complementaire, et a leurs places sont mises des valeurs 
aleatoires ou calculees ou des valeurs permutees, et cela 
pour la totalite du flux audio. Ainsi, on rajoute des 
" leurres " pour le decodeur, qui regoit en entree un flux 
audio completement conforme au format audio d' origine, mais 

15 qui n'est pas acceptable du point de vue auditif par un 
etre humain . 

A 1' inverse de la plupart des systemes de cryptage 
deja connus par l'homme de l'art, le principe decrit ci- 
20 des sous permet d' assurer un haut niveau de protection tout 
en reduisant le volume d ' information necessaire au 
decodage . 

La protection, realisee de fagon conforme a 
25 1' invention, est basee sur le principe de la suppression et 
le remplacement d ' informations decrivant le signal audio 
par une methode quelconque, soit : substitution, 
modification ou deplacement de 1 ' information . Cette 
protection est egalement basee sur la connaissance de la 
30 structure du flux a la sortie de l'encodeur audio : le 
brouillage depend du contenu dudit flux audio numerique. La 
reconstitution du flux originel s'effectue sur 1 ' equipement 
destinataire a partir du flux principal modifie deja 
present sur 1' equipement destinataire et de 1 ' information 
35 complementaire envoyee en temps reel comprenant des donnees 
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et des fonctions executees a 1 ' aide de routines (ensemble 
d ' instructions ) numeriques . 

Connaissant la maniere dont sont effectues la 
modelisation, la compression et l'encodage du signal audio 
5 pour le codeur audio et/ou le standard ou la norme donnes, 
il est toujours possible d'extraire a partir du bitstream 
les parametres principaux qui le decrivent et qui sont 
envoy es au decodeur. 

Une fois ces parametres identifies, ils 
sont modifies de maniere a ce que le flux audio genere par 
le codeur et/ou le standard donnes soit conforme a ce 
codeur et/ou ce standard. De plus, la modification assure 
la stabilite du signal sonore, mais le rend inexploitable 
par l'utilisateur, car il est embrouille. Cependant, il 
peut etre compris et interprets dans le decodeur 
correspondant a son encodage et joue par un player sans que 
ce dernier soit perturbe. 

La modification d'une ou de plusieurs des composantes 
dudit signal audio (enveloppe spectrale, fondamental ou 
harmoniques, modele psycho-acous tique , evolution 
temporelle, Rapport Signal/Bruit, composition, compression, 
quantification, transformation) va provoquer sa degradation 
du point de vue auditif et le transformer en un signal 
completement incomprehensible et desagreable du point de 
vue de la perception auditive subjective. La partie du 
signal audio ou la composante le decrivant qui sera 
modifiee depend de son encodage, pour chaque codeur- 
decodeur donne, et ceci que ce soit pour la parole, la 
musique, le bruit ou les effets speciaux, ou tout signal 
audio du meme type. Selon la maniere dont sont realises 
l'encodage et la transmission des parametres resultants, on 
peut avoir une information directe ou indirecte sur les 
principales caracteristiques du signal audio et done les 
modifier. Ce principe est applicable pour tous les types de 
codeurs audio faisant ou ne faisant pas partie d'un 
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standard ou d'une norme concrete,, ainsi que pour toutes 
leurs couches, de base ou d ' amelioration (base and 
enhancement layers) ou la combinaison des deux. 

A cet effet, 1' invention concerne dans son acception 
5 la plus generale un procede pour la distribution de 
sequences audio numeriques selon un format de flux nominal 
constitue par une succession de trames comprenant chacune 
au moins un bloc numerique regroupant un certain nombre de 
coefficients correspondant a des elements audio simples 
10 codes numeriquement selon un mode precise a 1'interieur du 
flux concerne et utilise par tous les decodeurs audio 
capables de le jouer afin de pouvoir la decoder 
correctement, caracterise en ce qu'il comporte : 

• une etape preparatoire consistant a modifier au 
15 moins un desdits coef f icients , 

• une etape de transmission 

- d'un flux principal conforme au format nominal, 
constitue par les blocs modifies au cours de 1' etape 
preparatoire et 

20 - par une voie separee dudit flux principal d'une 

information numerique complementaire permettant de 
reconstituer le flux audio original a partir du calcul, sur 
l'equipement destinataire, en fonction dudit flux principal 
et de ladite information complementaire. 

25 

Selon une variante, le flux principal modifie est 
enregistre sur l'equipement destinataire prealablement a la 
transmission de 1 ' information complementaire sur 
l'equipement destinataire. 
30 Selon une autre variante, le flux principal modifie 

et 1 ' information complementaire sont transmis ensemble en 
temps reel . 

De preference, la modification du flux originel 
s' applique a au moins une trame audio numerique structuree. 
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Avantageusement, les modifications sont effectuees die 
maniere a ce que le flux principal modifie soit de la meme 
taille que flux numerique originel. 

Avantageusement, le format de flux nominal est defini 
5 par un standard ou un codeur commun a une communaute 
d ' utilisateurs . 

Selon une variante, le procede comporte une etape 
d' analyse d'une partie au moins du flux originel, ladite 
etape d' analyse determinant la nature des modifications 
10 desdits coefficients. 

Selon une autre variante, 1' etape d f analyse determine 
la modification des coefficients en prenant en compte la 
structure concrete d'une partie au moins du flux originel. 

Avantageusement, la modification est appliquee a au 
15 moins un premier facteur d'echelle d'au moins une trame. 

Avantageusement, la modification est appliquee a au 
moins un coefficient spectral d'au moins une trame. 

De preference, le procede decrit precedemment 
20 comporte une etape prealable de conversion 
analogique/numerique sous un format structure, le procede 
etant applique a un signal audio analogique. 

Selon un mode de mise en ceuvre particulier, le flux 
comprend au moins une trame audio structuree selon le 
25 format MPEG-2 layer 3 (MPS), ou AAC (Advanced Audio 
Coding), ou CELP (Code Excited Linear Prediction), ou HVXC 
(Harmonic Vector excitation Coding), ou HILN (Harmonic and 
Individual Lines plus Noise), ou AC-3 (Advanced Coding - 
3). 

30 De preference, ladite information complementaire de 

modification comprend au moins une routine numerique apte a 
executer une fonction. 

Avantageusement, ladite information complementaire de 
modification est subdivisee en au moins deux sous-parties. 
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Selon une variance, lesdites sous-parties de 
1' information complementaire de modification peuvent etre 
distributes par differents medias . 

Selon une autre variante, lesdites sous-parties de 
5 1' information complementaire de modification peuvent etre 
distributes par le meme media. 

Avantageusement , 1 ' information complementaire est 
transmise sur un vecteur physique. 

Selon une variante r 1 ' information complementaire est 
10 transmise en ligne. 

De preference, on procede au decodage d'un flux 
principal par application d'une fonction de reconstruction 
a partir d'une information complementaire provenant d'une 
voie separee du vecteur dudit flux principal , et a un 
15 decodage dudit flux reconstruit par un procede adapte audit 
format nominal. 

De preference, le flux reconstitue a partir du flux 
principal modifie et 1 ' information complementaire est 
strictement identique au flux originel. 
20 L ' invention concerne egalement un systeme pour la 

distribution de sequences audio numeriques selon un format 
de flux nominal, pour la mise en oeuvre du procede decrit 
precedemment, comportant un encodeur selon ledit format 
nominal et des moyens de transmission d'un flux numerique, 
25 caracterist en ce qu'il comporte en outre un moyen pour le 
traitement d'un flux originel consistant a modifier au 
moins un des coefficients du flux principal, le serveur 
comportant en outre des moyens pour transferer 
1 ' information complementaire correspondant a ladite 
30 modification. 

L' invention concerne aussi un equipement pour la 
restitution de sequences audio numeriques selon un format 
de flux nominal, pour la mise en ceuvre du procede decrit 
precedemment, comportant un decodeur selon ledit format 
35 nominal et des moyens de reception d'un flux numerique, 
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caracterise en ce qu'il comporte en outre un moyen de 
reception d'une information complementaire associee au flux 
principal et un moyen pour la reconstruction du flux 
originel par traitement dudit flux principal et de ladite 
5 information complementaire. 

On comprendra mieux 1' invention a l f aide de la 
description,, faite ci-apres a titre purement explicatif, 
d'un mode de realisation de 1' invention, en reference a la 
10 figure annexee : 

• la figure 1 illustre un mode de realisation 
particulier du systeme client-serveur conforme a 
1 ' invention. 

15 Considerons un exemple de realisation du systeme. Sur 

le dessin en annexe, la figure 1 represente un mode de 
realisation particulier du systeme client-serveur conforme 
a 1 ' invention . 

Le flux audio de type MPEG-2 layer 3 (egalement 

20 appele MP3) que l'on souhaite s^curiser (1) est passe a un 
systeme d' analyse (121) et d ' embrouillage (122) qui va 
generer un flux principal modifie et une information 
complementaire . 

Le flux d'origine (1) peut etre directement sous 

25 forme numerique (10) ou sous forme analogique (11). Dans ce 
dernier cas, le flux analogique (11) est converti par un 
codeur non represente en un format numerique (10). Dans la 
suite du texte, nous noterons (1) le flux numerique audio 
d' entree. 

30 Un premier flux (124) au format MPEG-2 layer 3, de 

format identique au flux numerique d' entree (1) en dehors 
de ce que certains des coefficients, valeurs et/ou vecteurs 
ont ete modifies, est place dans une memoire tampon de 
sortie (125). L ' information complementaire (123), de format 

35 quelconque, contient les references des parties des 
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echantillons audio qui ont ete modifiees et est placee dans 
le tampon (126). En fonction des caracteristiques du flux 
d' entree (1), le systeme d' analyse (121) et d' embrouillage 
(122) decide quel embrouillage appliquer et quels 
5 parametres du flux modifier en fonction du type de codeur 
audio avec lequel il a ete encode (par exemple MPEG-2 layer 
3, MP3Pro... ou bien AAC, CELP, HVXC , HILN, ou leurs 
combinaisons si le flux traite est un flux MPEG-4). 

Le flux MPEG-2 (125) est ensuite transmis / via un 
io reseau haut debit (4) de type hertzien, cable, satellite, 
etc., au client (8), et plus precisement dans sa memo ire 
(81) de type RAM, ROM, disque dur. Lorsque le destinataire 
(8) fait la demande d' ecouter une sequence audio presente 
dans sa memoire (81), deux eventualites sont possibles : 
15 - soit le destinataire (8) ne possede pas les droits 

necessaires pour ecouter la sequence audio. Dans ce cas, le 
flux (125) genere par le systeme de brouillage (122) 
present dans sa memoire (81) est passe au systeme de 
synthese (82), qui ne le modifie pas et le transmet a 
20 l'identique a un lecteur audio classique (83) et son 
contenu, fortement degrade audit ivement, est joue par le 
player (83) sur les hauts parleurs ou le casque (9). 

- soit le destinataire (8) possede les droits pour 
ecouter la sequence audio. En fonction des droits de 
25 1 'utilisateur , le serveur 12 transmet 1 ' information 
complementaire (12 6) appropriee par la liaison ( 6 ) , en 
totalite ou partiellement . Dans ce cas, le systeme de 
synthese fait une demande d' audition au serveur (12) 
contenant 1 ' information necessaire (126) a la recuperation 
30 de la sequence audio originale (1). Le serveur (12) envoie 
alors par la liaison (6) via des reseaux de 
telecommunication (6) type ligne telephonique analogique ou 
numerique, DSL (Digital Subscriber Line), BLR (Boucle 
Locale Radio), DAB (Digital Audio Broadcasting) ou de 
35 telecommunications mobiles numeriques (GSM, GPRS, UMTS) 
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1 ' information complement aire (126) permettant la 
reconstitution de la sequence audio de fagon a ce que le 
client (8) puisse ecouter et/ou stocker la sequence audio. 
Le systeme de synthese (82) precede alors au 

5 desembrouillage de 1' audio par la reconstruction du flux 
d'origine en combinant le flux principal modifie (125) et 
1' information complementaire (126). Le flux audio ainsi 
obtenu en sortie du systeme de synthese (82) est alors 
transmis au player audio classique (83) qui diffuse 1' audio 

10 originale sur un casque ou des hauts parleurs ( 9 ) . 

Plus particulierement , notre application est 
concentree sur le module d' analyse (121) et d' embrouillage 
(122), etant donne la grande multitude des codeurs audio. 

15 Considerons maintenant des exemples de realisation du 

module 12. 

Concernant l'encodage avec le CELP (Code Excited 
Linear Prediction) inclus dans la norme MPEG-4, les 
parametres caracterisant le signal audio sont extraits et 

20 encodes a l'aide d'un codage entropique dans le bitstream. 
Les caracteristiques audio telles que les indices des 
coefficients LPC (Linear Predictive Coding) , le delai (lag) 
(pour le codebook adaptatif), les index d' excitation (pour 
le codebook, ou table de valeurs fixe), les indices de 

25 gains r etc. sont transmis via le bitstream au decodeur pour 
la reconstruction du signal. Les coefficients LPC sont 
trans formes en LAR (Log Area Ratio) et ensuite codes avec 
des codes de Huffman. Si on modifie (par exemple par 
substitution avec une valeur differente quelconque ou 

30 calculee, par inversion de bits, par annulation ou 
permutation) une ou des valeurs indices des coefficients 
LPC, ou des gains et index, on va modifier la constitution 
du signal audio et fausser le modele spectral. Le bitstream 
(correspondant au flux genere (124)) etant conforme sera 

35 decode correctement , mais la sequence audio decodee sera 
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deterioree par rapport a la sequence originale, done sera 
desagreable pour une oreille humaine ou non audible. 

Le principe reste le meme pour tous les exemples 
qui suivent, avec la difference qu'il est applique a 
5 differents parametres du signal audio provenant de la 
modelisation, les transformations mathematiques, la 
quantification ou la compression, relatives a l'encodeur- 
decodeur audio donne . Les parametres du signal audio a 
modifier pour chaque codeur sont donnes a titre d'exemple, 
10 la presente invention ne se limite ni aux parametres cites , 
ni aux codeurs cites. 

Avantageusement , pour chaque exemple de 
realisation, chaque valeur de substitution est de meme 
taille que la valeur substitute. 
15 Avantageusement, pour chaque exemple de 

realisation, la taille du flux principal modifie est 
identique a la taille du flux originel. 

Avec le codeur MPEG-2 layer 3 (ou MP3) on obtient 

20 les caracteristiques du signal audio suite a un traitement 
par bancs de filtres sous forme de lignes spectrales, 
quantifiees par une technique de facteurs d'echelle et 
transformees en MDCT (Modified Direct Cosine Transform) , 
puis quantifiees et codees par la suite avec le codage de 

25 Huffman. En modifiant les codes de Huffman relatifs aux 
valeurs des coefficients MDCT, ou les facteurs d'echelle 
pour la quantification, ou en modifiant les coefficients de 
prediction pour le codage multi canal, on obtient une 
deterioration importante du signal audio. 

30 Le bistream MPEG-2 layer 3 est constitue de la 

maniere suivante : entete, CRC (Check Redundancy Code), 
side information (contenant les parametres relatifs a 
l'encodage) et Main data, les Main data contiennent les 
facteurs d'echelle, les codes de Huffman et les donnees 

35 complementaires qui dans notre cas representent 1' extension 
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multi canal (qui contient a son tour une structure 
similaire, a savoir comprenant aussi les facteurs 
d'echelle, les coefficients de prediction et les codes de 
Huffman representant les coefficients MDCT (Modified Direct 
5 Cosine Transform) des lignes spectrales pour la couche 
multi canal, Un exemple de modification pour la couche 
multi canal est d'extraire une valeur donnee des facteurs 
d'echelle ou des coefficients de prediction et les 
remplacer par une valeur aleatoire ou fixe calculee de 

10 maniere a respecter la conformite et la taille du flux 
audio. Dans ce cas, lors du decodage, le decodeur 
reconstruira le flux audio avec une ou des valeurs qui ne 
correspondront pas a ses caracteristiques reelles. Changer 
les facteurs d'echelle va augmenter le bruit de 

15 quantification. Une autre possibility est de permuter les 
coefficients de Huffman relatifs aux coefficients 
quantifies MDCT. Par exemple, dans la partition 
" big__values ", les valeurs sont directement codees a 
partir de tables de Huffman en valeurs absolues et par 

20 paires de la maniere suivante : 

- hcod[ | x | ] [ | y | ] est le code de Huffman pour les 
valeurs x et y. 

- hlen[ | x | ] [ |y | ] est la longueur du code de Huffman 
pour les valeurs x et y. 

25 Si une ou deux des valeurs x et y sont differentes de 

zero, un ou deux bits de signe sont rajoutes. On effectue 
une permutation entre les valeurs x et y au niveau des 
parametres hcod et hlen, la permutation revient a 
intervertir les bits de poids le plus faible avec les bits 

30 de poids le plus fort de hcod et hlen. On peut egalement 
inverser le bit de signe. Une autre possibility est 
substituer la valeur hcod [ | x | ] [ | y | ] avec une valeur 
appartenant a la meme table de Huffman et de longueur 
hlen[ |x| ] [ |y | ] . Ces modifications et la modification des 
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coefficients de prediction changent la composition 
spectrale du signal audio , le signal audio est de forme . 

L'encodeur HVXC (Harmonic Vector excitation Coding) 
pour la parole et l'encodeur HILN (Harmonic and Individual 
5 Lines plus Noise) (norme MPEG-4) pour la musique sont des 
codeurs parametriques qui cedent le signal audio separement 
ou con jointement en fonction de son contenu. Par exemple , 
le bitstream provenant du HVXC contient les valeurs des LSP 
(Line Spectral Pairs) refletant les parametres LPC. Les LSP 

10 sont quantifies vectoriellement , stabilises dans la valeur 
de lsp_current[ ] afin d' assurer la stabilite du filtre de 
synthese LPC et ensuite ranges dans un bitstream en ordre 
ascendant, avec un minimum de distance entre coefficients 
adjacents. Permuter ou modifier deux coefficients, par 

15 exemple, dans le bitstream revient a deformer l'enveloppe 
spectrale. 

Le codeur AC-3 (Advanced Coding) de Dolby effectue la 
transformation du signal audio temps - frequence et 
l'enveloppe spectrale est representee sous forme 

20 d' exponent ielles . Une procedure speciale determine combien 
de bits vont etre alloues pour la representation des 
mantisses, qui sont quantifiees en consequence. Connaissant 
la disposition de ces elements dans le bitstream constitue 
de plusieurs blocs audio contenant des informations sur le 

25 dithering (traitement numerique dont le but est d'obtenir 
une meilleure approximation d'un signal audio numerique en 
ajoutant un signal aleatoire de faible amplitude.), le 
couplage, les exposants, 1' allocation des bits, les 
mantisses. Les valeurs des exposants sont codees en 

30 differentiel et en modifiant tres peu de ces valeurs, on 
peut corrompre le bloc entier, et par la suite les blocs 
qui suivent. Les mantisses sont codees en absolu, et aussi 
il suffit de modifier, substituer ou permuter des valeurs 
pour corrompre l'enveloppe spectrale. 
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Le codeur MPEG-AAC est base sur les transformations 
temps-frequences et genere aussi cies parametres de mise a 
l'echelle et de quantification, les parametres du TNS (Time 
Noise Shaping), les parametres de prediction LTP (Long Time 
5 Prediction), modifier ces valeurs produit egalement des 
effets de perturbation auditive. Par exemple, les vecteurs 
de coefficients MDCT sont aplatis par division avec 
l'enveloppe spectrale LPC (transformee en LSP et envoyee au 
decodeur sous forme d' indices). Les vecteurs de ponder ation 
10 sont divises en sous-vecteurs , qui sont soumis a une 
quantification vectorielle ponderee, les index resultants 
sont envoyes egalement au decodeur. Dans le cas d'une 
quantification vectorielle des MDCT, les VQ (Vecteurs de 
Quantification) non uniformes sont designes par leur index 
15 dans le codebook donne . Avant d'etre quantifies 
vectoriellement , les MDCT sont entrelaces. En modifiant 
1' index du vecteur de quantification, ou les indices LSP, 
on modifie les valeurs spectrales et on repercute 1'erreur 
sur d'autres valeurs, suite a cet entrelacement . 

Dans le bitstream, les valeurs spectrales sont 
disposees de la maniere suivante : 

x [g] [win] [sfb] [bin], ou g indique le groupe, win 
la fenetre spectrale utilisee, sfb le facteur d'echelle et 
bin le coefficient. Pour chaque groupe, le facteur 
d'echelle est applique a tous les coefficients du groupe et 
sert a reduire le bruit de quantification. Les elements du 
bistream pour les facteurs d'echelles sont global_gain, 
scale_f actor_data , hcod_sf[]. Global-gain represente le 
premier facteur d'echelle et le point de depart pour les 
facteurs d'echelles qui suivent et sont codes en 
differentiel par rapport au precedent a l'aide de tables de 
Huffman standards. Si on modifie la valeur global_gain 
directement, ou en la remplagant par une valeur aleatoire 
ou calculee, tous les facteurs d'echelle qui suivront 
seront corrompus et le signal audio sera endommage. On peut 
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effectuer cette modification pour un, plusieurs groupes, ou 
pour tous, et cela au moins pour une granule et pour au 
moins une trame. Le global_gain est code sur 8 bits dans le 
flux binaire, par exemple, en inversant le sixieme bit de 
5 poids fort, etant donne que les facteurs d'echelles sont 
codes en differentiel par rapport au global_gain, le signal 
est completement distordu et incomprehensible. Modifier le 
quatrieme bit de poids faible revient a produire une 
protection plus legere, le flux audio est comprehensible, 
10 mais tres desagreable a l'ecoute. 

Comme on vient de l'illustrer, en changeant tres peu 
d' information dans le flux, on detruit de fagon importante 
le signal audio, tout en obtenant une bonne protection pour 
une information complementaire de tres faible taille. 
Avantageusement, des reglages sont definis pour le module 
d ' embrouillage , de maniere a respecter les valeurs 
maximales autorisees afin de garantir que le flux audio 
protege n'est pas dangereux pour l'ouie humaine. Par 
exemple, le module d' embrouillage ne modifie pas les deux 
bits de poids le plus fort du global_gain, pour eviter des 
pics sonores importants. Avantageusement, les deux bits de 
poids le plus fort du global_gain sont substitues avec des 
zeros, ce qui attenue le signal partiellement et le rend 
moins comprehensible. 

Dans le cas ou les valeurs spectrales sont encodees 
par quadruplets (par ordre frequentiel croissant), on peut 
effectuer une permutation de deux valeurs et fausser la 
composition spectrale : hcod sect__cb[g] [i] [w] [x] [y] 
[z], ce sont les codes de Huffman pour la section i du 
groupe g. La permutation entend intervertir les bits de 
poids le plus faible avec les bits de poids le plus fort. 
Une autre possibility est substituer la valeur sect_cb[g] 
[i] [w] [x] [y] [z] avec une valeur appartenant a la meme 
table de Huffman et de longueur identique. 
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Si la prediction est activee, cela est indique dans 
le bitstream par un flag predictor_data_present . La 
prediction en arriere, basee sur la redondance spectrale du 
signal s'effectue a partir d'une structure en treillis f 
done chaque element x est predit a partir des deux elements 
precedents. Un flag predictor_reset indique pour quelle 
trame on reinitialise la prediction. Ainsi, en faussant ce 
flag, on peut perturber la reconstitution des echantillons 
predits, en modifiant la valeur initiale ou en indiquant 
une fausse initialisation. II suffit de modifier quelques 
valeurs x dans la trame pour fausser la prediction des 
echantillons suivants . 

Dans le AAC peut etre utilisee la prediction LTP 
(Long Term Prediction) qui est une prediction en avant, les 
coefficients de prediction sont envoyes dans la partie Side 
Information du bitstream, et done on peut modifier ou 
remplacer la valeur ltp__lag (le retard) ou modifier 
1' indication du coefficient ltp_coef qui prend des valeurs 
attributes par un tableau. 

TNS (Temporal Noise Shaping) est utilise pour 
controler la forme temporelle du bruit de quantification 
dans chaque fenetre spectrale, et represente un des outils 
les plus puissants de l'AAC. L'ordre et les coefficients du 
filtre sont calcules pour chaque bande et transmis au 
decodeur de la meme maniere que les coefficients LPC. 
Modifier ces valeurs ou les remplacer va deteriorer 
fortement le signal audio. 

Les exemples cites illustrent le principe des 
modifications sur un flux audio numerique dans le but de le 
proteger et sont applicables a tout flux ayant des 
caracteristiques similaires . 
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RE VEND I CAT I ONS 

1 . Procede pour la distribution de sequences audio 
numeriques selon un format de flux nominal constitue par 
5 une succession de trames comprenant chacune au moins un 
bloc numerique regroupant un certain nombre de coefficients 
correspondant a des elements audio simples codes 
numeriquement selon un mode precise a l'interieur du flux 
concerne et utilise par tous les decodeurs audio capables 
10 de le jouer afin de pouvoir la decoder correctement, 
caracterise en ce qu'il comporte : 

• une etape preparatoire consistant a modifier au 
moins un desdits coef f icients , 

• une etape de transmission 

15 - d'un flux principal conforme au format nominal,, 

constitue par les blocs modifies au cours de 1' etape 

preparatoire et 

- par une voie separee dudit flux principal d'une 

information numerique complement aire permettant de 
20 reconstituer le flux original a partir du calcul, sur 

l'equipement destinataire, en fonction dudit flux principal 

et de ladite information complementaire. 

2 • Procede pour la distribution de sequences audio 
25 numeriques selon la revendications 1, caracterise en ce que 
le flux principal modifie est enregistre sur l'equipement 
destinataire prealablement a la transmission de 
1 ' information complementaire sur l'equipement destinataire. 

30 3 . Procede pour la distribution de sequences audio 

numeriques selon la revendications 1, caracterise en ce que 
le flux principal modifie et 1 ' information complementaire 
sont transmis ensemble en temps reel. 
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4 . Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que la modification du flux originel 
s' applique a au moins une trame audio numerique structuree. 

5 

5. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que les modifications sont effectuees de 
maniere a ce que le flux principal modifie soit de la meme 

10 taille que flux numerique originel. 

6. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que le format de flux nominal est defini 

15 par un standard ou un codeur commun a une communaute 
d' utilisateurs . 

7. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 

20 caracterise en ce qu'il comporte une etape d ' analyse d'une 
partie au moins du flux originel, ladite etape d' analyse 
determinant la nature des modifications desdits 
coefficients . 

25 8. Procede pour la distribution de sequences audio 

numeriques selon la revendication 7, caracterise en ce que 
l'etape d'analyse determine la modification des 
coefficients en prenant en compte la structure concrete 
d'une partie au moins du flux originel. 

30 

9. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que la modification est appliquee a au 
moins un premier facteur d'echelle d'au moins une trame. 



35 
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10. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que la modification est appliquee a au 
moins un coefficient spectral d'au moins une trame. 

5 

11. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce qu'il comporte une etape prealable de 
conversion analogique/numerique sous un format structure, 

0 le procede etant applique a un signal audio analogique. 

12. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que ce flux comprend au moins une trame 

5 audio structuree selon l'un des formats de compression 
comprenant les formats MPEG-2 layer 3, AAC , CELP, HVXC, 
HILN, et AC-3. 



13. Procede pour la distribution de sequences audio 
0 numeriques selon l'une quelconque des revendications 

precedentes, caracterise en ce que 1 ' information 
complementaire de modification comprend au moins une 
routine numerique apte a executer une fonction. 

14. Procede pour la distribution de sequences audio 
numeriques selon l'une quelconque des revendications 
precedentes, caracterise en ce que ladite information 
complementaire de modification est subdivisee en au moins 
deux sous-parties . 

15. Procede pour la distribution de sequences audio 
numeriques selon la revendication 14, caracterise en ce que 
lesdites sous-parties de 1 ' information complementaire de 
modification peuvent etre distributes par differents 
medias . 



WO 2004/032418 



24 



PCT/FR2003/002913 



16. Procede pour la distribution de sequences audio 
numeriques selon la revendication 14, caracterise en ce que 
lesdites sous-parties de 1 ' information complementaire de 

5 modification peuvent etre distributes par le meme media. 

17. Procede pour la distribution de sequences audio 
numeriques selon l'une au moins des revendications 
precedentes, caracterise en ce que 1 ' information 

10 complementaire est transmise sur un vecteur physique. 

18. Procede pour la distribution de sequences audio 
numeriques selon l'une au moins des revendications 1 a 16, 
caracterise en ce que 1 ' information complementaire est 

15 transmise en ligne. 

19. Procede pour la restitution de sequences audio 
numeriques encodees selon un procedt conforme a la 
revendication 1, caracterise en ce que l'on procede au 

20 decodage d'un flux principal par application d'une fonction 
de reconstruction a partir de 1 ' information complementaire 
provenant d'une voie separee du vecteur dudit flux 
principal, et a un decodage dudit flux reconstruit par un 
proced<§ adapte audit format nominal . 

25 

20. Procede pour la distribution de sequences audio 
numeriques selon l'une des revendications precedentes, 
caracterise en ce que le flux reconstitue a partir du flux 
principal modifie et 1 ' information complementaire est 

30 strictement identique au flux originel. 

21. Systeme pour la distribution de sequences audio 
numeriques selon un format de flux nominal, pour la mise en 
ceuvre du procede conforme a la revendication 1, comport ant 

35 un encodeur selon ledit format nominal et des moyens de 
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transmission d'un flux numerique, caracterise en ce qu'il 
comporte en outre un moyen pour le traitement d'un flux 
originel consistant a modifier au moins un des coefficients 
du flux principal , le systeme comportant en outre des 
5 moyens pour transferer 1 ' information complementaire 
correspondant a ladite modification. 



22. Equipement pour la restitution de sequences audio 
numeriques selon un format de flux nominal,, pour la mise en 

10 ceuvre du procede conforme a la revendication 1, comportant 
un decodeur selon ledit format nominal et des moyens de 
reception d'un flux numerique, caracterise en ce qu'il 
comporte en outre un moyen de reception d'une information 
complementaire associee au flux principal et un moyen pour 

15 la reconstruction du flux originel par traitement dudit 
flux principal et de ladite information complementaire. 
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CHG DATE=20040814 STATUS=0>The invention 
relates to a method of distributing digital audio 
sequences according to a nominal stream format 
consisting of a series of frames. Each of said 
frames comprises a digital block containing a 
certain number of coefficients corresponding to 
simple audio elements which are digitally encoded 
according to a mode identified in the relevant 
stream and used by all of the audio decoders 
capable of doing so, such that the stream can be 
decoded correctly. The invention is characterised 
in that it comprises: a preparatory step 
consisting in modifying at least one of the 
aforementioned coefficients ; and a transmission 
step involving the transmission of (i) a main 
stream with the nominal format, which is made up 
of the blocks modified during the preparatory 
step, and (ii), using a channel separate from said 
main stream, complementary digital information 
which enables the original stream to be 
reconstructed from the calculation on the 
recipient device according to the main stream and 
the complementary information. The invention also 
relates to a system and a piece of equipment which 
are used to implement the inventive method. 
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